Image du projet Avatar le maître du R

IF36 - Visualiser des données

Image du meilleur groupe de projet R

Avatar, le maître du R

Date de sortie : 2025-04-28

Pour la réalisation du projet, nous avons décidé de nous baser sur divers datasets autour de la plateforme Steam et de sa grande bibliothèque de jeux. L'objectif est d'analyser le marché du jeu vidéo, ses tendances, ses hauts et ses bas.

Voir le Github Free to play

Notre équipe

Datasets initiaux

Compte rendu

Introduction

Steam

Steam est une plateforme de distribution de jeux vidéo développée par Valve.

Elle permet aux utilisateurs d’acheter, télécharger et jouer à une grande variété de jeux sur PC, Mac et Linux. En plus de proposer un vaste catalogue de jeux (environ 140 000 jeux), Steam offre des évaluations et avis de joueurs sur les jeux de son catalogue.


Données

Dans le cadre de notre projet, nous avons choisi d’étudier divers jeux de données autour du catalogue de jeux Steam. Les datasets utilisés lors de ce projet sont les suivants :

Les datasets sont sous format de différents fichiers csv. Cependant, NewbieIndieGameDev utilisant probablement un logiciel tiers pour manipuler ses données, certains csv sont mal formatés et imparsables par un programme (données json dans une colonne, balises html, …).
Nous devons donc les modifier au préalable. Nous avons déjà “reformaté” le fichier games.csv afin de le rendre lisible par nos programmes et vérifier que nous sommes bien capables de les traiter pour notre projet.
Ainsi dans le dossier data : pour chaque fichier qui possède ce problème, il y aura un fichier raw_<nom_du_fichier>.csv qui sont les données brutes (“illisibles”) et clean_<nom_du_fichier>.csv qui sont les données reformatées pour qu’elles soient “lisibles”.

Ces datasets possèdent de nombreuses variables. Nous allons nous concentrer sur ceux qui nous semblent assez pertinentes à analyser. Description des fichiers et de leur contenu :

  • games.csv : regroupe les métadonnées des jeux, notamment :
    • app_id (discrètes) : identifiant unique du jeu sur Steam
    • name (nominales) : titre du jeu
    • price (continues) : prix d’achat
    • languages (nominales) : les langues disponibles sur le jeu
  • steamspy.csv : fournit des données issues de SteamSpy, incluant :
    • app_id (discrètes) : identifiant unique du jeu sur Steam
    • developer (nominales) : studio de développement
    • publisher (nominales): éditeur du jeu
    • owners_range(discretes/continues) : plage estimée du nombre de propriétaires du jeu
    • playtime_median (discrètes) : durée médiane de jeu par utilisateur
    • concurrent_users_yesterday (discrètes) : nombre total de joueurs connectés (octobre 2024)
    • genres (nominales) : catégorie du jeu
  • tags.csv : répertorie les tags attribués à chaque jeu (différents des genres).
    • app_id (discrètes) : identifiant unique du jeu sur Steam
    • tag (nominales) : tag associé au jeu
  • reviews.csv : contient des informations sur les avis des joueurs :
    • app_id (discrètes) : identifiant unique du jeu sur Steam
    • review_score_description (oridnales) : évaluation globale (Overwhelmingly Positive, Very Positive, Mixed, etc.)
    • positive / negative (nominales) : nombre d’avis positifs et négatifs
    • metacritic_score (discrètes) : note Metacritic
    • recommendations (discrètes) : nombre de recommandations sur Steam
  • categories.csv : liste les catégories officielles Steam associées aux jeux.
    • app_id (discrètes) : identifiant unique du jeu sur Steam
    • category (nominales) : catégorie associée au jeu

Plan d’analyse

Nous tenons à éviter de reproduire les mêmes analyses et visualisations que NewbieIndieGameDev disponible sur ce lien : Vidéo sur l’analyse des données par NewbieIndieGameDev

Avec ces nombreuses données et variables, de nombreuses pistes d’analyse sont possibles :

Notes et avis des joueurs

  • Une corrélation est-elle identifiable entre les avis/note (Métacritics ou joueurs) et le temps de jeu ?
  • Les avis Metacritic sont-elles corrélées avec les avis données par les joueurs sur la plateforme ?
  • Voir l’évolution des évaluations des joueurs des jeux AAA

Genres des jeux

  • Quels sont les catégories les plus populaires sur Steam actuellement ?
  • Quel est la tendance des jeux sortis récemment ? (genre, jeux indépendants ou AAA, etc…)
  • Observer l’évolution des genres de jeu sortis pour déceler des “modes” et période où certains genre de jeux était les plus populaires ?
  • À partir des résultats de l’observation précédente, essayer de comprendre une montée ou baisse des genres.
    • Exemple (simple) : est-ce que la croissance du genre battle royale peut-être corrélée/causée avec la sortie du jeu Fortnite
    • Exemple (complexe) : Peut-on observer une corrélation entre la sortie de jeux en ligne et le déploiement d’internet dans le monde (nécessite de trouver des données sur le déploiement d’internet)

Jeux indépendants vs AAA

  • Les jeux indépendants obtiennent-ils des meilleures évaluations que les AAA ?
  • Quelle est la durée de vie d’un jeu indépendant comparée à un AAA? (on essayera de prendre des jeux avec des genres assez similaires)
  • Les genres/tags des jeux indépendants sont-ils plus “innovants” que les AAA ?

Prix

  • Quels sont les facteurs qui impactent globalement le prix ? (les genres/tags de jeux les plus chers, plus de langues disponibles <=> prix plus chers ?)
  • Comparer des jeux avec des avis/notes similaires mais des prix différents pour voir si le temps de jeu moyen est impacté (est-ce que le prix peut influer le joueur à plus jouer pour le “rentabiliser”)
  • Comparer les moyennes des prix des jeux par développeurs / studio de développement, pour potentiellement identifier des stratégies économiques chez certains.

Jeux en ligne

  • Quels sont les types de jeu en ligne les plus populaires sur Steam ? (FPS, MMO, etc…)
  • Déceler certains jeux avec un fort nombre de joueurs connectés et essayer de l’associer à un évènement à ce moment (octobre 2024) qui explique ce nombre élevé : mise à jour conséquente, évènement d’influenceur relançant l’intérêt pour le jeu, etc…

Différences culturelles/géographique et leurs impacts

  • Etudier les langues disponibles selon les jeux des développeurs afin de potentiellement déceler des marchés/régions priorisés.

Variables à comparer/Visualisations à réaliser

Voici une liste non exhaustive des variables comparées ainsi que les visualisations que l’on va réaliser :

  • Nombre de jeux par genre/catégorie, avec possibilité de filtrer par date de sortie pour analyser les tendances récentes.
  • Comparaison entre les scores Metacritic et les avis des utilisateurs sur Steam.
  • Corrélation entre le nombre de langues disponibles et le nombre de propriétaires d’un jeu.
  • Comparaison entre les jeux issus d’un studio indépendant et ceux d’un grand studio, en comparant l’évolution des ventes réalisées, le prix des jeux et les avis des joueurs (ex : les jeux du studio Supergiant Games vs Ubisoft).
  • Analyse des combinaisons de genres les plus fréquentes pour les jeux indépendants et les jeux AAA, afin de mettre en évidence des différences de positionnement. - Évolution des prix de lancement des jeux au fil du temps.

Problèmes et limitations

  • Le dataset que l’on a choisi est un “snapshot” du SteamLibrary datant d’octobre 2024. On ne pourra pas réaliser de comparaisons dans le temps à part dans certains rares cas où les variables nous le permettent (prix initial d’un jeu, etc…)
  • Pour certaines données notamment provenant de SteamSpy, ce sont des estimations donc les analyses sur ces données perdront une certaine précision

Analyse descriptive

Dans cette partie, nous allons chercher à analyser les différentes variables de notre dataset importé afin d’appréhender les données que nous avons choisis. Nous chercherons à calculer les moyennes et les écarts-types des variables numériques (pour le prix, le nombre d’avis, etc…). Nous étudierons également la répartition de différentes valeurs au sein du dataset (tags, owner_range, etc..). Enfin, nous construirons également une matrice de corrélation afin d’examiner les possibles relations entre les variables du dataset.

Moyennes et Écarts-types

Notes :

  • La moyenne des notes Metacritics ne concerne que les jeux ayant reçu cette note
  • La moyenne des prix ne concerne uniquement les jeux payants

Répartition de différentes variables

Répartition de la plage de propriétaires des jeux Steam

Note :

  • Ces données proviennent de SteamSpy. Un autre outil existe pour estimer le nombre de copies vendues au total (Gamalytic), mais ce service est payant

Répartition des jeux Steam sortis par année

Observations :

  • On observe l’absence de jeux sortis en 2002.
  • On observe également une augmentation nette à partir de 2006. Une explication plausible est que la plateforme Steam est sortie en 2003 et était dédiée à la distribution des mises à jour des jeux Valve. Ce n’est qu’à la fin de l’année 2005 que Steam a décidé de distribuer des jeux tiers sur son marché.
  • On observe une augmentation brusque en 2013-2014. Ceci est le résultat du programme Steam Greenlight, un service qui permettait aux développeurs de soumettre leur jeu pour que la communauté Steam puisse voter pour ceux qui vont intégrer le catalogue de la plateforme. Lancé en 2012, ce service va permettre à plus en plus de jeux de pouvoir intégrer le catalogue Steam.
  • Il faut prendre en compte également que ce graphique utilise une échelle pseudo-logarithmique, lorsque l’on parlons d’augmentation nette, elle ne l’est pas réellement en terme de chiffre. On vous affiche le graphique réel sans échelle logarithmique :

Sources des explications :

Répartition des genres des jeux Steam

Observations :

  • Le genre le plus populaire dans le catalogue Steam est le genre Indie
  • On peut observer ensuite un nombre similaire pour les genres Action Casual et Adventure (~ 36k jeux) et pour les genres Simulation, Strategy et RPG (~ 17k jeux)

Note :

  • Nous avons retiré les genres qui ne comptaient moins de 1000 jeux pour se concentrer sur les genres principaux des jeux Steam. La plupart des autres genres retirés étaient des genres de niche (Cinéma ou d’autres genres concernant les logiciels disponibles sur Steam).

Matrice de corrélation

Observations :

  • Le nombre d’avis positif semble être corrélé avec le nombre de recommendation (0.93)
  • La note Metacritic n’est pas forcément corrélé avec la proportion de notes positives (0.53)
  • Certaines valeurs obtenues doivent être discutées comme la corrélation entre le nombre de recommendation et le nombre d’avis positive/négative. En effet, comme il s’agit d’une valeur comptée, cela peut biaiser l’interprétation de la corrélation. En prenant en compte la proportion, nous obtenons une valeur quasi-nulle.

Notes :

  • Il n’existe pas de corrélation négative dans nos données
  • Nous avons omis la proportion d’avis négative dans le tableau car nous obtenons juste le résultat inverse que pour la corrélation pour les avis positive.

Partie Analyse Prix

Contexte et problématique

Dans cette section, nous allons nous intéresser aux différents facteurs qui peuvent avoir une influence sur le prix des jeux du dataset. Nous avons à partir des données de notre jeu de données relevé différents aspects qui seraient intéressants d’analyser afin de mieux comprendre comment peut être défini le prix d’un jeu.

Dans chaque sous-section de cette partie, nous expliquerons qu’est-ce que nous analysons et pourquoi. Ensuite, nous montrerons les graphiques puis les analyserons, pour enfin en donner une conclusion ainsi que les limites de cette analyse.

Préparation des données

Avant de passer à l’analyse, nous devons d’abord traiter et filtrer nos données afin d’obtenir nos visualisations. Nous avons fait le choix de laisser les différentes parties de codes pour les traitements des données uniquement visible depuis le fichier Rmarkdown (avec explication en commentaires) et non sur le rapport “exporté” (au format HTML).

Nous avons fait ce choix car le rapport a pour but d’analyser et d’observer nos jeux de données et non d’expliquer comment faire tel ou tel graphique.

L’évolution des prix des jeux au fil du temps

Tout d’abord, nous allons nous intéresser à l’évolution des prix au fil des années. Nous avons décidé de commencer par là car en tant que joueur, nous avons tous l’impression que durant les années le prix des jeux n’a cessé d’augmenter. Encore aujourd’hui, c’est en plein dans l’actualité avec la sortie de la console de Nintendo : la Switch 2 et ses prix aux alentours des 80~90€.

Il nous pense donc intéressant de voir si ce phénomène s’illustre à travers notre jeu de données.

Visualisation

Voici en premier lieu, un graphique “scalar plot” montrant avec les années sur l’axe horizontal et le prix moyen des jeux de notre dataset sur l’axe vertical.

Le second graphique lui, montre la même évolution mais cette fois-ci en distinguant les jeux indépendants des jeux de studios généralement à plus gros budget (AAA, AA, ..).

Nous avons voulu les séparer car c’est deux secteurs sont bien différents que ce soit leur manière de développer, leur budget, leur objectifs, … De plus, nous aovns pris cette décision car dans de nombreux autres analyse dans ce rapport nous avons noté des différences entre les deux.

Observations

Globalement, on observe effectivement qu’il y a bien une tendance haussière du prix des jeux vidéos, en tout cas, sur le catalogue Steam.

Néanmoins, à travers le second graphique, on peut constater que la hausse des prix des jeux ‘Studio’ est bien plus grande que celle des jeux indépendants. Cette tendance correspond toute à fait aux observations que nous ferons plus tard dans le rapport.

Enfin, on peut très clairement distinguer une forte croissance pour les jeux ‘Studio’ aux alentours de 2012~2013. Nous n’avons malheuresement pas réussi à déterminer exactement la cause de cette croissance. Nous avons notamment pensé à la sortie d’une nouvelle génération de console avec la PS4 et la XBOX One sortie fin 2013, mais néanmoins, nous n’avons pas observé de différence de prix majeures entre les nouveaux jeux et ceux précédent (sur PS3 et XBOX 360).

La disparité de genres de jeux vidéo

Pour continuer, nous allons maintenant essayer de voir quel pourrait-être les possibles liaisons entre les genres de jeux-vidéo et leur prix. Il nous paraît en effet tout à fait cohérent qu’un jeu 3D open-world type : GTA V, The Witcher III coûte plus chère qu’un jeu comme un super mario 2D plateformer (m’enfin ça c’est mal connaître Nintendo hein 👀).

Nous allons donc voir à travers cette section, quels sont les genres de jeux les plus et moins chères. Essayer de comprendre pourquoi et analyser et comparer plus en détails certains genres entre eux.

Visualisation

Voici une treemap montrant les 50 genres de jeux vidéos les plus fréquents de notre dataset avec le dégradé de couleur indiquant le prix médian par genre.

Nous parlerons du graphique treemap dans la partie observations.

Ce qui nous intéresse ici c’est de mettre le focus sur un genre en particulier : la VR (réalité virtuelle). En effet, celle ci est très récente dans le marché du jeu vidéo. Nous avons donc voulu savoir quel était l’évolution de cette catégorie du jeu depuis sa démocratisation.

Pour cela, nous avons fait un bar plot montrant le nombre de jeux VR sortie par année.

Puis, nous avons également fait un scalar plot pour suivre le prix des jeux VR médians au fil des années.

Observations

Concernant la partie des jeux VR, On observe aisément une corrélation entre la chute des prix des jeux VR et leur démocratisation dans le marché. Cela nous parait parfaitement cohérent. Au fur et à mesure que les technologies ont évolués, et qu’il est devenu plus facile à la fois pour les développeurs de créer des jeux VR mais aussi l’accessibilité des joueurs (sortie en 2016 du premier Occulus Rift), le nombre de jeux a pu augmenter et leur prix diminué. Nous avons donc ici, selon nous, un exemple de facteur qui impacte grandement les prix des jeux : la difficulté à développer un type spécifique et innovant de jeu vidéo.

Et ce critère semble ce poursuivre avec le premier graphique (la treemap), on observe par exemple que les jeux 3D coûtent plus hcères que les jeux 2D. De plus, le genre le plus chères est le : JRPG. Cela nous paraît également cohérent étant donnée l’état du marché des jeux vidéos actuel. Aujourd’hui, les gros jeux (à grosse production) possèdent très souvent ce tag.

A l’inverse, la treemap confirme également la tendance qu’on a observé dans la partie évolution du prix au fil du temps. On observe que les jeux Indie (jeux indépendants) sont en général bien moins chères que les autres.

Les langues disponibles sur les jeux vidéos

Nous allons maintenant analyser est-ce que les langues disponibles pour un jeu peut avoir un impact sur son prix.

Nous avons choisi d’étudier cet aspect là car traduire un jeu dans une langue demande un travail supplémentaire pour le studio de développement qui doit soit embaucher des employés pour chaque langue souhaitée, soit faire appel à des équipes de traductions externes à l’entreprise. De plus, cette traduction demande parfois des adaptations visuelles d’éléments graphiques directement dans le jeu, par exemple : si les langues sont extrêmement différentes (langues asiatiques fonctionnant sur un système d’idéogrammes et langues occidentales se basant sur l’alphabet latin).

Ainsi, cela représente un coût supplémentaire à ajouter au développement et ceci pour chaque langue. Voila pourquoi nous pensons nous intéressr à ce sujet.

Visualisation

Nous décidons de partir sur un “scalar plot” avec comme axe horizontal le prix des jeux et comme axe vertical le nombre de langues disponibles :

Comme vous pouvez le constater le graphique est très peu lisible à cause de ses échelles, cela est dû aux points dits “outlier” : des points extrêmes en prix ou nombre de langues relevant “d’anomalie” et ne représentant pas la masse des données.

Nous décidons donc de les enlever pour réduire l’échelle et mieux pouvoir analyser le graphique.

Observations

Comme nous pouvons l’observer, de nombreux jeux possédant le même nombre de langues se vendent à des prix très différents et inversement de nombreux jeux aux mêmes prix possèdent un nombre de langues très différents. De plus, nous n’observons pas d’augmentation de prix de façon linéaire par rapport au nombre de langues disponibles.

Il ne semble donc pas y avoir de corrélation entre le nombre de langues disponibles et le prix d’un jeu.

Notre hypothèse concernant les moyens et coûts de traduction qui pourraient impacter le prix est donc fausse. Cela nous parraît cohérent étant donné qu’aujourd’hui le support multi-language est devenu une norme pour une grande partie des jeux. Les studios aujourd’hui visent un marché international et donc doivent rendre leurs jeux accessibles pour ces marchés.

Pour revenir sur les points “outliers” du premier graphique, on peut observer que les points tout en haut à gauche sont trop nombrés et regroupés pour être qualifiés de simple outliers. Après investigation dans les jeux de données, nous avons découvert qu’il s’agit principalement de petit jeux à puzlle où il n’y a aucun ou très peu de texte. Par ailleurs, on peut observer une sorte de barrière auquel se rencontre les jeux un peu après 100 langues. Cette barrière (103 pour être précis) représente en réalité le nombre de langues que reconnaît Steam. Ainsi, ces jeux indiquent qui valident toutes les langues car ils n’ont justement pas de traduction à faire pour leur jeu.

Limites de l’analyse sur les prix

Concernant cette partie analyse de prix, nous avons identifié 2 principales limites qui peuvent nuire à nos résultats.

La première, la plus évidente, c’est que nos données contiennent uniquement les jeux sur Steam. Ainsi, sur un sujet comme le prix des jeux qui est très soumis au variation du marché des jeux vidéos, cela est dommage de ne pas avoir avoir plus de données. A cause de cela, de nombreux jeux n’aparraissent pas dans ce dataset mais participe tout autant à ce marché et donc impacte les prix.

L’autre limite concerne nos données, aujourd’hui en 2025 le prix du jeu n’est plus du tout le seul moyen pour les développeurs de rentabiliser leurs jeux. Les micro-transactions avec les achats intégrés dans les jeux ou encore les DLC (extension d’un jeu payant) sont des stratégies aujourd’hui largement déployé. Malheuresement, nos datasets ne disposent pas de ces données (impossible à récupérer depuis les interfaces ou outils de Steam).

————————————————————————

Types de jeux en ligne sur Steam

Différences entre Catégorie et Tag

Sur Steam, il existe deux types de variables qui permettent de classer les jeux présents sur la plateforme :

  • Catégories : classifications officielles attribuées par Steam. Elles décrivent les fonctionnalités principales du jeu. Exemples : Multijoueur, Succès Steam, Support manette, Mode coopératif.

  • Tags : classifications collaboratives créées par les utilisateurs. Ils décrivent le contenu, l’ambiance ou le style du jeu. Exemples : Puzzle, Narratif, Indépendant, FPS, Monde ouvert.

Tags et Catégories de Portal 2 sur Steam
Tags et Catégories de Portal 2 sur Steam

Contexte et problématique

Steam est un acteur majeur dans le développement du jeu en ligne avec des titres cultes comme Counter-Strike ou Team Fortress. Au fil des années, d’autres genres comme les MMORPG, Battle Royale ou les jeux en coopération ont gagné en popularité. Nous voulons voir les tendances actuelles et quels types de jeux attirent principalement les joueurs de Steam.

Notre problématique est alors la suivante :

Quels sont les types de jeu en ligne les plus populaires sur Steam ? (FPS, MMO, etc…)

Définition de jeu en ligne

Pour commencer notre analyse, il faut tout d’abord définir le terme de jeu en ligne.

Une définition de jeu en ligne sera un jeu vidéo dont l’expérience se repose sur l’intéraction entre plusieurs joueurs en temps réel.

Typologies principales :

  • MMO (Massively Multiplayer Online)
  • Jeux compétitifs (FPS, MOBA, Battle Royale)
  • Jeux collaboratifs (ex : Euro Truck Simulator 2)

Critères d’identification “jeu en ligne” :

Pour qu’un jeu soit considéré comme en ligne :

Il doit contenir au moins un des éléments suivants dans ses catégories ou tags :

  • Multiplayer, Massively Multiplayer, Online Co-op, etc.

Pour mesurer la popularité :

On utilise le nombre de joueurs actifs en octobre 2024 (concurrent_users_yesterday dans les données).

Types de jeux en ligne

Pour analyser les type de jeux les plus populaires pour les jeux en ligne et regarder sa distribution dans le magasin Steam, on a retenu les tags suivants uniquement :

  • FPS Multijoueur
  • Battle Royale
  • RPG en ligne
  • Coopération en ligne
  • Sandbox
  • Survival Multiplayer
  • Autres (correspondant aux autres tags non classés)

Analyse des résultats

Voici la répartition des joueurs sur la plateforme Steam sur les jeux en lignes :

Observations

  • Les jeux FPS Multijoueur est de loin le genre dominant avec 1,5 million de joueurs actifs, dont 1,1 million sur Counter-Strike 2 à lui seul.
  • Autres genres comptent 1,3 million de joueurs avec des jeux variés comme War Thunder, Euro Truck 2, Civilization VI, etc. Cette catégorie montre la diversité des jeux en ligne.
  • Les Battle Royale regroupe 1 million de joueurs (~16,5 %). Bien qu’en déclin par rapport à 2018-2020, ce genre reste populaire.
  • Les RPG en ligne regroupent environ 1,2 million de joueurs. On y trouve :
    • Des MMORPG (Destiny 2, New World, etc.)
    • Des RPG coopératifs (Baldur’s Gate 3, Stardew Valley)
  • Les Survival Multijoueur comptent 800 000 joueurs sur des titres comme Rust, Satisfactory, Factorio.
  • Les MOBA n’ont seulement 550 000 joueurs, dont la grande majorité provient de Dota 2.

Les RPG en détails

Nous allons approfondir notre analyse dans le type RPG en essayant de séparer et de voir la répartition des RPG en ligne et des MMORPG.

Voici la répartition des joueurs jouant à des MMORPG et des joueurs de RPG classique :

Note :

  • Stardew Valley a le tag RPG et est un jeu qui peut se jouer en multijoueur mais peut-on considérer comme un jeu en ligne ? C’est le cas d’autres jeux principalement singleplayer mais qui peut se jouer en multijoueur.

Limites des résultats obtenus

  • Les tags Steam et les catégories créées ne sont pas assez précises pour trouver les jeux en ligne car on se retrouve souvent à la frontière d’un jeu avec un système multijoueur et un jeu en ligne.

  • D’autres visualisations au sein des catégories nous permettraient de voir qu’uniquement quelques jeux portent la base de jeu de certains types de jeux comme CS 2 pour les FPS et Dota 2 pour les MOBA.

  • Le fait que la catégorie “Autres” possèdent de nombreux jeux en ligne que l’on a pas pu classer montre que le domaine des jeux en ligne est très variée et non cantonnée aux genres que l’on pense habituellement. Globalement, réaliser une classification sur l’ensemble des jeux Steam semble difficile tant certains jeux sont assez particulier pour les catégoriser.

  • Enfin, il faut être conscient que ces données ne concernent que les utilisateurs Steam et non la globalité des joueurs. Par exemple, pour les MMORPG, ceux-ci peuvent être lancés hors Steam. De plus avec l’avènement de l’Epic Game Store, une partie des jeux sont passés sur l’autre plateforme comme Rocket League.

Les jeux les plus populaires

Dans cette partie, nous allons observer les jeux avec le plus de joueurs jouant en même temps. Voici les données pour le dataset que l’on a qui indique le nombre de joueurs en Octobre 2024 :

Pour les données plus récentes, nous avons récolté le nombre de joueurs actif sur le site SteamDB. Voici le même graphique pour Juin 2025 :

Observations :

  • Il existe 3 jeux principaux qui regroupe la majorité des utilisateurs Steam : Counter-Strike 2, PUBG et Dota 2 avec plus de 500k joueurs.
  • On peut remarquer une augmentation significative de la base de joueurs de ces 3 jeux entre octobre 2024 et juin 2025, notamment Counter-Strike 2 qui compte 400k joueurs supplémentaire d’après nos données mais il est de 200k en réalité (SteamDB - Page CS2)
  • Certains jeux comme Black Myth: Wukong ou Liar’s Bar ont été sorti en octobre 2024, ce qui peut expliquer leur présence dans les jeux les plus populaires de Steam et leur absence dans le second graphique. La même remarque est à réaliser pour les nouveaux jeux sortis en juin 2025 comme Stellar Blade, Dune: Awakening ou ELDEN RING NIGHTREIGN qui viennent juste de sortir
  • La présence de Free-to-play peut aussi expliquer la présence de Bongo Cat et de Delta Force dans le graphique de juin 2025. On note 5 jeux FTP dans le classement de 2025.
  • En juin 2025, bien qu’ils ne fassent pas parti des 10 jeux les plus populaires, NARAKA: BLADEPOINT (12ème) et Stardew Valley (19ème) possèdent une base de joueurs assez fidèle. Rust, quant à lui, reste dans le classement à la 10ème place.
  • Pour Stardew Valley, on peut supposer que sa promotion (-50%) en octobre lui a permis de rentrer dans le classement des jeux les plus populaires.
  • Pour Factorio, la raison de sa présence en octobre est dû à la sortie de son contenu additionnel Factorio: Space Age sortie en octobre 2024
  • Pour Liar’s Bar, le jeu a été assez populaire en raison de nombreux streamers/youtubers qui ont réalisé du contenu sur le jeu.

Conclusion

On peut observer plusieurs caractéristiques communes des jeux les plus populaires sur Steam :

  • Les jeux sont Free-to-play
  • Les sorties récentes de jeux ou de contenus additionnels
  • Les soldes du jeu
  • Le jeu devienne le contenu tendance des créateurs de contenu (streamers/youtubers)

Le classement des jeux les populaires est assez versatile mais le top 3 reste identique avec leurs grosses bases de joueurs.

Limite de l’analyse

  • Le nombre de joueurs récoltés de notre dataset n’est pas forcément une mesure très précise car elle enregistre le nombre de joueurs au moment de la récolte de la donnée. Or le nombre de joueurs d’un jeu varie grandement au cours d’une journée (plus de joueurs le soir et des heures creuses) et au cours de la semaine (plus de joueurs le week-end).

Analyse des notes des jeux AAA et indies

Introduction

L’industrie du jeu vidéo traverse une période compliquée depuis plusieurs années. Les plus grosses entreprises du milieu enchaînent les polémiques : entre licencements intensifs, management toxique et jeux très moyens aux yeux de la critique dont les prix ne cessent d’augmenter, le milieu ne cesse d’évoluer.

Quelle est la différence entre un jeu studio et un jeu indépendant ?

Un jeu studio est un jeu vidéo développé par une entreprise. On peut attribuer ce terme pour classifier les jeux vidéos dotés d’un certain budget de développement et de promotion, avec de grandes équipes d’employés. On peut donc s’attendre à des productions de qualité, avec des jeux vidéos AA voire même AAA selon la quantité de ressources utilisée pour le développement du projet.

Cependant, ces productions font face à plusieurs critiques récurrentes telles que le manque d’innovation, une uniformisation des contenus, ou encore des pratiques commerciales controversées (microtransactions, loot boxes, DLC abusifs).

À l’opposé, les jeux indépendants sont souvent développés par des équipes réduites ou par des développeurs individuels disposant de moyens financiers et techniques limités. Ce contexte leur permet généralement une plus grande liberté créative, donnant naissance à des jeux originaux, audacieux et parfois innovants.

Problématique

Face à ce contexte qui oppose budget et innovation, une question se soulève quant à la qualité des jeux auprès du grand public :

Les jeux indépendants obtiennent ils de meilleures évaluations que les jeux fait par des studios ?

Chargement et préparation des données

Afin de réaliser l’analyse, on va utiliser les fichiers raw_reviews.csv et tags.csv qui seront suffisants. Les deux fichiers sont reliés par app_id, tags.csv va nous permettre de séparer les jeux par le groupe des jeux indépendants et celui des jeux studios, et raw_reviews.csv va nous permettre d’obtenir les notes attribuées pour chaque jeu. Dans un second temps, nous utiliseront la variable steamData qui regroupe l’ensemble des données pour faire des analyses plus précises.

Préparation des jeux

Steam possède un tag spécialement pour les jeux indépendants, qui se nomme “Indie”. Ce n’est pas le cas pour les jeux de studios. Cependant, on peut facilement les obtenir en récupérant l’ensemble des jeux, puis en enlevant les jeux indépendants.

Par la suite, on peut tout mettre dans un nouveau dataset nommé types_games qui recense l’ensemble des jeux avec leur catégorie propre.

Préparation des évaluations

Pour les évaluations, on va créer un nouveau dataset avec seulement les informations dont nous avons besoin, c’est à dire app_id et review_score_description. On va ensuite filtrer review_score_description afin d’obtenir seulement les jeux qui ont une évaluation. La colonne peut avoir d’autres valeurs, comme “None”, “1 user reviews” etc… car Steam attribue une évaluation à un jeu seulement à partir d’un certain nombre d’évaluations de la part de la communauté.

Visualisations

Enfin, pour la visualisation de nos données, je me suis orienté sur un diagramme à barres. L’objectif est de comparer directement les types de jeu selon le niveau d’évaluation.

Le problème est que ce n’est pas égal de faire la comparaison actuellement. Comme on peut le voir plus au dessus grâce à la fonction nrow, studio_games possède 54 252 jeux, tandis que indie_games en possède 63 253. On va donc faire une moyenne globale pour être au même niveau.

La fonction “geom_bar” nous permet de définir l’option “position = dodge” afin d’avoir les barres côte à côte pour une meilleure lisibilité.

Observations

L’analyse du graphique montre que, proportionnellement, les jeux issus de studios obtiennent légèrement plus d’évaluations “Very Positive” que les jeux indépendants. Toutefois, les différences restent relativement faibles, et la majorité des jeux indépendants reçoivent également des évaluations globalement positives. Les jeux indépendants affichent une proportion un peu plus élevée d’évaluations “Mixed”, ce qui pourrait refléter une plus grande diversité de qualité au sein de cette catégorie. Cela amène à nuancer l’hypothèse initiale : si les jeux indépendants reçoivent de nombreuses bonnes évaluations, les jeux de studios conservent tout de même une légère avance en termes de perception positive moyenne sur Steam.

Cette hypothèse découle du fait qu’aujourd’hui, les joueurs se focalisent sur une petite partie du monde vidéoludique. De nouveaux jeux sortent chaque jour ; certains sont excellents, mais ils ne bénéficieront pas forcément de la même visibilité que les jeux colossaux développés par les grandes entreprises, comme Microsoft, Ubisoft, Activision Blizzard, Rockstar, etc.

Focus sur différents studios de jeux

Nous allons maintenant comparer différents studios, avec d’un côté des studios produisant des jeux AAA, et de l’autre, des studios indépendants. Nous nous appuierons sur six studios aux profils variés :

  • Ubisoft : studio français mythique et reconnu, à l’origine de nombreuses productions AAA telles que Assassin’s Creed et Far Cry.
  • Supergiant Games : studio indépendant qui a marqué les esprits avec le jeu Hades.
  • FromSoftware Inc. : studio AAA évoluant dans un registre différent d’Ubisoft, notamment connu pour la série Dark Souls.
  • Scott Cawthon: développeur indépendant ayant créé à lui seul l’un des plus grands univers du jeu d’horreur : Five Nights at Freddy’.
  • Treyarch: branche emblématique d’Activision, responsable d’une partie du développement des jeux Call of Duty, notamment la série Black Ops.
  • Moon Studios: studio indépendant qui a ébloui le monde du jeu vidéo avec le style artistique de la série Ori.

Maintenant que nous avons réuni des studios issus de tous les horizons, nous allons observer les évaluations obtenues pour plusieurs de leurs jeux et les comparer. L’objectif est d’explorer davantage la question de la notation et la potentielle influence du tag “Indie”.

Observations

Suite à cette visualisation, on peut constater que les trois studios indépendants sont ceux qui obtiennent proportionnellement le plus de notes positives. Ils sont suivis de près par FromSoftware. L’objectif ici est uniquement de constater les avis des joueurs par rapport aux jeux produits. Les chiffres ne sont pas équivalents, mais, par exemple, Hades, un grand jeu indépendant produit par Supergiant Games, a reçu 258 000 évaluations, un chiffre qu’aucun jeu AAA produit par les grands studios de la liste n’a atteint.

Conclusion

Pour conclure, non, les jeux indépendants n’obtiennent pas nécessairement de meilleures notes que ceux produits par les gros studios. On peut toutefois constater qu’une forme de méritocratie s’est installée dans l’esprit des joueurs : ils font beaucoup de bruit pour des jeux indépendants excellents, et de même pour dénoncer des jeux à gros budget jugés médiocres. Il n’est pas normal qu’avec des moyens colossaux, certaines entreprises livrent des produits inachevés, sans âme, au point d’en oublier le concept même du jeu vidéo : l’amusement.


Tendance des jeux sortis récemments (Jules PERRIN)

Contexte général

Steam est une plateforme qui propose l’un des plus gros catalogue de jeux vidéo du marché. Chaque jeu proposé a plusieurs caractéristiques (nom, prix, éditeur , etc). Parmi ces caractéristiques, l’une d’entre elle nous intéresse particulièrement dans ce rapport. En effet les tags permettent aux joueurs de se faire une idée rapide des jeux proposés ou encore de rechercher de nouveaux jeux selon leur préférences.

Le jeu de données que nous allons utiliser ne comporte pas de données permettant de dresser une temporalité. Ce rapport portera donc sur les données du catalogue Steam en octobre 2024.

Les catégories ne doivent pas être confondues avec les tags. Ici les catégories représentent comment l’on joue au jeu (multiplayer, online pvp, remote play on phone etc). Alors que les tags représentent à quoi l’on joue (survival, tactical, FPS, old school, etc).

Problématique

Ce rapport traitera une question pour le moment:

  • Quelle est la tendance des jeux sortis récemment ?

Cela nous permettra d’avoir une idée globale de la dispersion des joueurs dans les catégories majeurs sur steam pour les nouveaux jeux. Pourrait être utile à un studio pour orienter son futur jeux vidéo par example.

Analyse

Import des données

Premièrement il faut importer les données nécessaires à cette analyse. Ainsi que charger les librairies requises pour travailler et visualiser les données Les données des fichiers tags, steamspy et games sont nécéssaires

Précision et définition

Ici on cherche à représenter la tendance actuelle. On utilisera donc la population steam présente le jour de la construction du dataset (bien que pas objectivement représentatif cf. interprétation). On cherche également à se concentrer sur les jeux récents. On utilisera donc tous les jeux sortis en 2024

Voila donc un aperçu des tags les plus populaires selon le contexte établi ## meilleur tags

Visualisation

Interprétation

On peut observer des tags assez génériques néanmoins on peut s’interroger sur la présence d’early access. Est ce que cette position dans les tags résulte de la curiosité des joueurs pour les jeux “non sortis” en général. Ou bien est-ce qu’un triple A était très attendu et est sorti en early acces en 2024.

On peut également observer que les jeux multi et single player se valent mais cette interprétation est à nuancer car les jeux peuvent avoir les 2 tags de par la présence d’une campagne ou d’un mode histoire.

Les jeux en Coop sont significativement au delà des jeux coop online. Cela pourrait se traduire par l’envie des joueurs de jouer uniquement avec leurs amis ou au moins de ne pas jouer avec des gens aléatoire qui pourraientt avoir un écart de niveau important ou juste vouloir “troller”. au demeurant, les jeux coop n’ont pas forcement de mode en ligne

Meilleures catégories

Dans cette partie on se concentrera uniquement sur les catégories de jeux. Mais également sur tout l’historique des nombre de possesseurs contrairement au graphique précédent ou l’on évoquait les joueurs connectés.Les données utilisé portent sur les jeux de toutes les années de notre datasets

Visualisation

Interprétation

On peut voir que premierement que les catégories les plus présente sont très générique. Cela peut s’expliquer du fait qu’elle sont présente sur énormément de jeux qu’elle que soit leurs autre catégories. Typiquement on ne vois pas de catégories spécifique comme “farm” ou “war” par exemple.

##Evolution des tags Dans cette partie on reviendra sur les tags les plus présents en fonction des années de sortie. Pour cela on prend les 10 tags les plus utilisé globalement et on regade leurs évolution.

Visualisation

Le premier graphique représente toute la période du dataset. Les deux suivant son des focus sur les période avant et après 2013

Interprétation

Sur le graphique global on voit une explosion du nombre de jeux en 2013. Une explication probable est la sortie de la PS4 et Xbox One cette année là. Les éditeurs se sont peut être concentré sur des version pc plutot que sur des édition console qui aurait touché une population plus faible de joueurs.

Quand au tag en eux-même, on remarque une forte ascencion des jeux independant ainsi que des jeux single player notamment sur l’année 2020 et 2021. Cette augementation des jeux single player pourrait être expliqué par le covid. Tous les “petit jeux” pouvais être des jeux rapide à développer pour les studio pour répondre à une demande immédiate.

Sur les deux grap de focus, on peut remarquer une croissance assez stable grace à cette séparation.

Correlation tag-grosse sortie

Cette dernière partie visera à déterminé si un jeu best seller peu influencer ces tags ou est ce que c’est plutôt un tendance global qui influait ces tags

Visualisation

Interprétation

On se concentrera sur les 2 grpahiques de focus sur les périodes avant et après 2013. Ici on voit apparaitre le best seller de l’année. On peut donc estimer si le jeu en question à une relation avec les jeux sorties cette année.

Par exemple certain jeux n’ont rien à voir avec les “gros” tags des jeux sorties cette année là. Par exemple Left 4 dead 1 et 2 en 2008 et 2009 se retrouve uniquement dans 2 tags (Action et multiplayer). On pourrait donc estimer que c’est un bon jeux malgré qu’il n’ai pas forcément surfer sur la vague du moment. En revanche si on regarde Trove en 2015, il coche toute les cases de plusieurs des meilleur tags (3D, action, adventure, casual).

Limites et attentions

Il faut absolument garder en tête que le dataset ne se base pas sur tout l’historique de steam mais bien sur une journée ce qui peut donc ne pas être représentatif à la perfection.

Les résultat présents sont limités par le fait que beaucoup de jeux peuvent avoir plusieurs tags et donc compter plusieurs fois et biaiser les résultat. Ici impossible de faire la distcntion car il n’y a pas de hiérarchisation des tags. Néamoins une possibilité pourrait être de donner un poids aà certains tags trop générique pour observer des résultat plus axé sur le theme du jeux en lui même (military plutot que multiplayer)

Nous sommes également limité par l’explicité des tags, par exemple, Coop online est-il réservé au jeux qui proposent un matchmaking ou aux jeux permettant d’invité ses amis ou les deux. Ces petites imprécision affecte également la pertinence de l’analyse.